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摘 要 题目 位 置 效 应 (Jtem Position Effect, IPE) 是 指 在 别 除 随机 误差 的 影响 之 后 ， 同 一道 题目 在 不 同 测验 间 


因 题 目 位 置 的 变化 而 导致 题目 参数 的 变化 。IPE 的 存在 会 严重 威胁 依赖 于 项 目 反 应 理论 参数 不 变性 特征 的 相 


关 应 用 ， 比 如 测验 等 值 和 计算 机 化 自 适 应 测验 . 目前 关于 这 一 领域 的 研究 主要 集中 于 对 IPE 的 检测 ， 而 对 所 检 


测 到 的 效应 进行 进一步 的 解释 ， 则 是 今后 的 研究 重点 。 


究 领 域 和 实践 领域 都 具有 重要 意义 。 


另外 ， 在 不 同 的 研究 情境 下 深入 探讨 IPE， 对 于 基础 研 
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在 1984 年 至 1986 年 的 美国 教育 进展 评估 项 
目 (The National Assessment of Educational Progress, 
NAEP), 9 岁 和 17 岁 受 测 群体 的 阅读 成 绩 出 现 
难以 置信 的 异常 下 降 ， 这 一 事件 引发 一 项 为 期 3 
年 的 调查 研究 ， 也 即 后 来 被 大 家 所 熟知 的 “1986 
年 NAEP 阅读 异常 研究 ”( 详 见 Beaton et al., 1988; 
Beaton & Zwick, 1990)。 后 续 研究 表明 : 导致 这 一 
现象 的 主要 原因 是 NAEP 中 题 册 间 锚 题 位置 与 情 
境 的 变化 (Zwick，1991)。 这 一 现象 作为 测量 领域 
的 一 个 警钟 ， 提 醒 研 究 者 们 : 题目 位 置 和 情境 的 
变化 会 对 受 测 者 的 作答 反应 产生 不 容 忽 视 的 影响 ， 
尤其 是 在 测验 等 值 设计 中 。 

目前 ,测验 中 因 题 目 位 置 变化 所 产生 的 影响 ， 
主要 是 从 题目 位 置 变化 如 何 影响 题目 参数 的 角度 
进行 探究 。 在 此 背景 下 ， 本 文 将 题目 位 置 效应 
(Item Position Effect, IPE) 定 义 为 : 在 剔除 随机 误 
差 的 影响 之 后 ， 同 一 个 题目 在 不 同 测验 间 因 题目 
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位 置 的 变化 而 导致 题目 参数 的 变化 。 由 上 述 定义 
并 结合 以 往 研 究 ， 可 以 看 出 PE 会 对 依赖 于 项 目 
反应 理论 (item Response Theory, IRT) 参 数 不 变 性 
(parameter invariance) 特征 的 相关 应 用 、 测 验 公 
平 性 以 及 考生 的 作答 心理 等 方面 造成 不 利 影响 。 

首先 , 在 心理 与 教育 测量 中 ,参数 不 变性 特 
征 是 IRT 的 最 大 优点 ( 罗 照 感 , 2012)。IRT 正 是 由 
于 具备 这 一 特性 , 才 使 得 它 在 指导 题库 建设 、 计 
算 机 化 自 适 应 测验 (Computerized Adaptive Testing, 
CAT) 中 发 挥 着 无 法 比拟 的 作用 。 同 时 ,参数 不 变 
性 特征 也 是 测验 等 值 技 术 得 以 实现 的 前 提 条 件 ; 
在 多 种 等 值 设计 中 ， 非 等 组 锚 测 验 设计 (Kolen, 
2006) 是 最 常见 的 等 值 数据 搜集 方法 ， 这 种 设计 通 
过 一 组 内 骨 在 两 个 平行 测验 中 的 锚 题 来 实现 两 个 
测验 间 的 等 值 。 而 且 该 设计 有 一 个 关键 假设 : 销 
题 的 统计 学 特性 在 不 同 的 测验 间 应 该 是 稳定 的 ， 
即 锚 题 参数 不 变性 假设 。 另 外 , 在 和 矩阵 取样 
(matrix sampling) 技 术 中 ,为 了 实现 不 同学 生 之 间 
成 绩 的 比较 , 需要 在 不 同 题 册 间 设 置 相同 的 组 块 
(block) jm Wie Be, 并且 组 块 的 位 置 在 各 个 题 册 间 
也 是 不 同 的 。 此 时 , 链接 所 使 用 题目 的 参数 稳定 


”参数 不 变性 是 指使 用 同一 总 体内 不 同样 本 (题目 或 被 试 
样本 ) 所 估计 的 相同 被 试 或 相同 题目 的 参数 是 不 变 的 ; IRT 
的 这 一 性 质 会 在 2.1 节 进 行 详 述 。 
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性 ， 对 于 和 矩阵 取样 设计 的 有 效 性 具有 决定 性 影 
响 。 然 而 , IPE 恰恰 是 对 IRT 参数 不 变性 特征 的 一 
种 违反 。 所 以 ， 系 统 研究 IPE 的 有 影响， 对 于 确保 
IRT 应 用 优势 的 发 挥 、 降 低 等 值 误差 、 优 化 矩阵 
取样 技术 在 大 规模 测评 领域 的 应 用 ， 都 具有 十 分 
重要 的 意义 。 

其 次 ， 从 测验 公平 性 角度 来 看 ， 一 个 公平 的 
题目 应 该 能 够 给 受 测 者 提供 平等 的 机 会 , 来 反映 
他 们 已 掌握 的 与 测验 目的 相关 的 技能 和 知识 
(Roever, ， 2005)。 然 而 在 实践 中 ,题目 或 者 测验 水 
平 的 公平 性 很 可 能 会 受到 题目 位 置 、 性 别 以 及 种 
族 等 因素 的 有 影响， 从 而 导致 题目 偏差 (item bias), 
最 终 对 受 测 者 的 作答 表现 产生 影响 (Zumbo, 1999)。 
传统 的 做 法 是 从 题目 功能 差异 (Differential Item 
Functioning, DIF) ( 即 题目 参数 值 在 不 同 子 群体 间 
存在 变化 ) 的 角度 来 对 这 种 偏差 进行 分 析 , 但 是 也 
可 以 从 IPE 的 角度 来 分 析 。IPE 和 DIF 一 样 都 会 


这 说 明 题目 位 置 的 变化 的 确 关 系 到 被 试 的 作答 心 
理 ， 进 而 会 影响 被 试 的 作答 表现 。 考 试 本 身 就 是 
一 种 会 引起 受 测 者 应 激 反 应 的 事件 ， 所 以 在 将 考 
试 结果 作为 决策 依据 使 用 之 前 ,任何 对 被 试 的 作 
答 心 理 造 成 差异 性 影响 的 因素 ,都 值得 对 其 进行 
慎重 且 全 面 的 考查 。 

基于 这 一 研究 主题 的 重要 性 ,本文 则 在 对 
IPE 进行 系统 概括 和 总 结 ， 以 期 为 测量 研究 者 与 
实践 者 了 解 IPE 的 研究 进展 以 及 主要 研究 思路 提 
供 帮 助 。 本 文 首 先 对 IPE 的 相关 概念 (比如 参数 不 
变性 .题目 情境 效应 .题目 顺序 效应 ) 进 行 梳理 ; 然 
后 系统 总 结 检测 IPE 的 方法 以 及 相应 的 模型 ， 同 
时 从 两 个 角度 对 IPE 的 解释 进行 概括 ; 最 后 ， 从 
四 个 方面 对 今后 的 研究 方向 进行 展望 。 


2 IPE 的 相关 概念 
关于 IPE 的 研究 集中 于 探讨 其 对 IRT 参数 不 


对 测验 的 公平 性 产生 不 利 影响 。 但 是 相 比 较 而 言 ， 
DIF 是 从 被 试 特征 的 差异 来 探究 具有 相同 目标 测 
量 结构 的 个 体 在 题目 参数 上 的 差异 ， 即 考查 题目 
功能 所 导致 的 偏差 ; 这 种 偏差 是 由 于 题目 本 身 功 
能 性 特征 所 决定 的 ,是 由 于 题目 开发 过 程 ， 即 题 
目 设 计 所 导致 的 ; 而 IPE 则 是 从 题目 特征 的 差异 
来 探究 题目 参数 稳定 性 的 影响 ， 即 考查 题目 情境 
(即位 置 ) 所 导致 的 偏差 ; 此 偏差 是 由 于 题目 外 在 
情境 特征 所 决定 的 ,是 由 于 测验 设计 所 导致 的 。 
所 以 ,从 偏差 产生 原因 的 角度 来 看 , IPE 又 有 别 于 
DIF, 也 有 国内 研究 者 将 其 归属 为 参数 漂移 (tem 
Parameter Drift，IPD) 产 生 的 原因 ， 并 对 IPD 与 
DIF 进行 了 系统 地 区 分 ( 叶 萌 ， 辛 涛 , 2015)。 

总 的 来 说 , IPE 对 测验 的 公平 性 的 不 利 影 响 主 
要 体现 在 依据 考生 作答 反应 对 其 进行 分 类 、 选 拔 
等 政策 性 的 决策 中 ,进而 会 对 个 人 录取 、 学 校 资 
助 、 地 区 课程 的 调整 产生 较 大 影响 (Hill，2008; 
Meyers, Miller, & Way, 2009; Wise, Chia, & Park, 
1989)。 特 别 是 在 高 利害 考试 中 , 减少 这 种 不 利 因 
素 ,可 以 为 考生 提供 相同 的 机 会 、 维 持 高 水 准 分 
类 的 准确 性 。 

此 外 , 在 认 知 领域 的 实验 研究 中 ，Weinstein 
和 Roediger (2010) 对 测验 表现 中 回顾 性 偏差 
(retrospective pias) 的 研究 也 表明 : 题目 排列 方式 
的 不 同 , 会 使 得 被 试 在 作答 动机 、 自 信心 水 平 以 
及 受 测 后 自我 成 就 评价 等 方面 存在 显著 的 差异 。 


变性 特征 违反 所 造成 的 影响 ,所 以 本 章节 首先 对 
IRT 参数 不 变性 特征 进行 简要 介绍 。 男 外 ， 关 于 
IPE 的 研究 也 是 随 着 测量 技术 的 发 展 以 及 测量 领 
域 问题 关注 点 的 变化 而 不 断 变 化 的 ， 所 以 结合 这 
一 主题 的 研究 进程 ,我 们 也 对 这 期 间 所 涉及 的 与 
IPE 相似 或 相关 的 概念 进行 区 分 。 
2.1 IRT 参数 不 变性 特征 

参数 不 变性 特征 是 IRT 在 测验 领域 最 实用 的 
特征 ,等 值 、DIF 和 IPD 等 研究 主题 都 是 基于 参 
数 不 变 性 遭 到 违反 以 及 由 此 产生 的 影响 来 开展 相 
关 研 究 的 。 对 于 参数 不 变性 ， 可 以 从 两 个 角度 进 
行 理解 :第 一 从 同一 总 体 的 角度 进行 理解 ， 即 根 
据 来 自 同一 总 体 的 不 同样 本 所 估计 得 到 的 参数 值 
不 变 。 比 如 , 来 自 同一 总 体 的 两 批 被 试 样本 作答 
同一 批 题目 ， 通 过 作答 反应 估计 得 到 的 两 批 题目 
参数 值 近似 相同 ; 第 二 ， 从 不 同 总 体 的 角度 进行 
理解 ， 即 根据 来 自 不 同 总 体 的 样本 所 估计 得 到 的 
参数 值 是 存在 变化 的 (Rupp & Zumbo, 2006)。 但 是 
它们 之 间 存 在 某 种 线性 关系 ， 可 以 通过 等 值 来 进 
行 转换 比较 。 所 以 总 的 来 说 ， 参 数 不 变 性 是 指 : 
使 用 同一 总 体内 不 同样 本 (题目 或 被 试 样本 ) 所 估 
计 得 到 的 相同 被 试 或 相同 题目 的 参数 是 不 变 的 。 

Hambleton 和 Swaminathan (1985) 明 确 表达 
“能 力 参 数 的 估计 独立 于 特定 的 选项 与 题目 ”是 
IRT 的 主要 特征 ,也 是 被 试 间 能 够 进行 比较 的 基 
础 。Meyers 等 人 (2009) 认 为 基于 参数 不 变性 特征 ， 
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研究 者 可 以 将 IRT 应 用 到 CAT 和 预 等 值 (pre- 
equating)。 可 以 说 ， 近年 来 几乎 所 有 被 记录 的 、 对 
测验 实践 有 益 的 发 展 ， 都 是 伴随 着 IRT, 或 者 更 
确切 地 说 ， 是 随 着 参数 不 变性 特征 一 起 出 现 的 
(Store，2013)。 但 IPE 恰恰 是 对 这 一 特征 的 违反 
(Hill, 2008; Meyers et al., 2009; Wise et al., 1989), 
所 以 从 这 一 特征 在 RT 应 用 中 的 重要 地 位 来 看 ， 
关于 IPE 的 研究 应 该 引起 测量 领域 相关 学 者 的 高 
度 重 视 。 
2.2 IPE 概念 的 演进 

IPE 是 在 剔除 随机 误差 的 影响 之 后 ， 同 一 个 
题目 在 不 同 测验 间 因 题目 位 置 的 变化 而 导致 题目 
参数 的 变化 。 事 实 上 ， 这 一 概念 塞 括 了 关于 题目 
位 置 变化 的 所 有 可 能 情况 ， 其 中 包括 单个 题目 的 
位 置 变 化 以 及 多 个 题目 整体 和 部 分 的 位 置 变化 
( 即 题目 顺序 或 情境 )。 常 见 的 两 种 IPE 分 别 是 练习 
效应 (learning effect) 和 疲劳 效应 (fatigue effect) 
(Kingston & Dorans, 1984)。 在 非 速 度 型 测验 ?中 ， 
存在 的 疲劳 效应 , 会 使 得 位 于 测验 尾部 的 题目 难 
度 增 大 ; 反之 , 练习 效应 会 使 得 位 于 测验 尾部 的 
题目 难度 降低 。 

对 以 往 研 究 进行 梳理 发 现 ， 题目 情境 效应 
(item context efjfect) 与 题目 顺序 效应 (item order 
effect) 本 质 上 都 是 研究 题目 位 置 改 变 所 产生 的 影 
响 ， 所 以 两 者 都 可 以 归属 于 PE 的 概念 范畴 ， 接 
下 来 对 它们 以 及 彼此 的 关系 进行 简要 说 明 。 
2.2.1 题目 情境 效应 

Leary 和 Dorans (1985) 以 及 Davey 和 Lee 
(2010， 引 自 Store，2013) 等 人 将 题目 情境 效应 定 
义 为 : 受 测 者 在 题目 上 的 作答 反应 直接 或 间接 地 
受 除 “ 测 验 想 要 测量 的 主要 特质 或 构 念 ”以 外 一 些 
因素 的 影响 而 发 生变 化 。 这 些 影响 因素 具体 包括 : 
题目 在 测验 中 的 位 置 (Hill，2008; Meyers et al., 
2009; Whitely & Dawis, 1976; Yen, 1980) 、 措 辞 、 
内 容 、 格 式 (Kingston & Dorans, 1984; Zwick, 1991) 
以 及 该 题目 周围 的 其 他 题目 的 特殊 特征 (Davis & 
Ferdous, 2005; Haladyna, 1992)。 由 于 题目 的 位 置 
是 题目 所 在 情境 的 一 部 分 ， 因而 , IPE 可 以 被 看 作 


“在 IPE 相关 研究 领域 里 涉及 的 非 速度 型 测验 (unspeeded 
lests)， 都 是 按照 大 型 测评 公司 的 经 验 法 则 进行 定义 : 可 以 
满足 100% 被 试 完成 75% 的 题目 , 或 者 不 少 于 80% 的 被 试 完 
成 100% 的 测验 题目 。 


是 题目 情境 效应 的 特例 。 

但 是 , 研究 表明 : 在 因 情 境 变化 而 对 被 试 能 
力 估计 产生 影响 的 各 种 因素 中 , 题目 位 置 变化 的 
影响 是 最 为 显著 的 (Leary & Dorans，1985)， 因 而 
研究 者 也 集中 于 探讨 位 置 因素 的 影响 。 所 以 本 文 
认为 在 心理 与 教育 测量 情境 下 ,关于 题目 情境 效 
应 的 研究 ， 如 果 主 要 讨论 的 是 题目 情境 因素 中 位 
置 因素 对 被 试 作答 表现 的 影响 ,题目 情境 效应 就 
是 特 指 IPE。 
2.2.2 ”题目 顺序 效应 

早期 的 成 就 测验 中 , 经常 通过 保持 测验 内 容 
不 变 而 改变 题目 顺序 的 方式 , 来 防止 考生 抄袭， 
提高 考试 安全 性 。 自 Mollenkopf (1951) 发 现 题目 
顺序 的 变化 会 对 题目 难度 、 区 分 度 有 显著 影响 后 ， 
很 多 研究 者 都 开始 探究 不 同 题目 排列 方式 对 测验 
总 分 的 影响 (Brenner, 1964; Hanson, 1996; Monk & 
Stallings, 1970; Moses, Yang, & Wilson, 2007)。 题 
目 顺序 效应 是 指 一 组 题目 由 于 题目 间 顺 序 的 变化 
所 带 来 的 对 受 测 者 作答 结果 的 影响 。 即 同一 组 题 
目 以 不 同 的 顺序 呈现 给 同一 总 体内 两 组 不 同 的 被 
试 作答 ,考察 两 组 被 试 在 同一 组 题目 上 作答 结果 
的 差异 。 

综合 以 往 的 文献 描述 ， 可 以 将 题目 顺序 和 
题目 位 置 的 研究 问题 都 归 为 题目 排列 (item 
arrangement) 方 式 的 研究 范畴 ”。 本 质 上 ,题目 顺序 
效应 是 IPE 在 测验 层面 的 概念 ， 是 同一 研究 问题 
在 不 同 研究 阶段 的 名 称 ， 两 者 可 以 统称 为 IPE。 两 
者 的 关系 详 见 表 1。 

事实 上 ， 这 一 研究 主题 下 的 研究 视角 由 测验 
整体 层面 过 渡 到 单个 题目 层面 的 转换 ， 得 益 于 70 
年 代 末 等 值 技术 的 应 用 由 于 在 等 值 设计 中 涉 
及 锚 题 的 使 用 ， 所 以 在 基于 IRT 的 等 值 设计 中 ， 
锚 题 参数 稳定 性 的 相关 研究 ， 使 得 关于 题目 排列 
顺序 对 考生 作答 表现 影响 的 探究 从 多 个 题目 顺序 
层面 转换 到 单个 题目 层面 。 此 后 ， 越 来 越 多 的 研 
究 者 (Debeer & Janssen, 2013; Hartig & Buchholz, 


3 题目 排列 方式 即 对 题目 组 合 设 计 (如 题目 顺序 、 题 目 位 置 ) 
的 总 称 ， 表示 按照 某 种 设计 对 题目 进行 编排 和 安放 。 进 
步 细 分 , 题目 排列 方式 还 包含 : 题目 的 难 易 排列 、 按 照 课 
程 教学 顺序 排列 等 。 在 本 文中 , 我 们 统一 将 其 纳入 题目 顺 
序 效应 的 范畴 内 。 因 为 以 往 在 考查 其 影响 时 ， 都 是 以 多 个 
题目 间 顺 序 改变 的 形式 ， 从 测验 整体 层面 上 来 考察 其 对 被 
试 作答 的 影响 。 
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表 1 题目 位 置 效应 和 题目 顺序 效应 的 区 别 和 联系 


题目 顺序 效应 


题目 位 置 效 应 


描述 特征 ”描述 测验 形式 的 特征 
涉及 题 数 ”考查 涉及 多 个 题目 的 排列 顺序 关系 


s 


首 述 题目 形式 的 特征 


考查 仅 涉及 单个 题目 在 不 同 测验 上 的 位 置 变化 


区 别 ”考查 范围 “对 其 进行 研究 ,不 能 考查 单个 题目 位 置 变化 对 该 题 研究 IPE 的 同时 ， 也 可 以 考虑 到 题目 顺序 对 测验 


目 参数 的 影响 ， 即 并 不 能 同时 实现 对 IPE 的 考查 


总 分 的 影响 ， 即 可 以 同时 实现 对 题目 顺序 效应 的 
考查 


联系 ”二 者 都 是 对 题目 位 置 改 变 所 产生 影响 的 描述 ， 是 同一 个 研究 问题 在 不 同 研究 阶段 的 阶段 性 概括 。 


2012; Hecht, Weirich, Siegle, & Frey, 2015; Meyers 
et al., 2009; Qian, 2014; Weirich, Hecht, Penk, 
Roppelt, & Bohme，2017)， 开 始 从 题目 层面 上 考 
察 单个 题目 位 置 的 改变 对 测验 题目 或 者 被 试 作答 
造成 的 影响 。 

总 的 来 说 ， 以 往 基 于 测验 总 体 层 面 对 题 目 顺 
序 效应 的 研究 ,存在 以 下 的 问题 : 首先 ， 这 些 研 究 
仅仅 是 对 某 一 组 特殊 的 题目 进行 题目 顺序 效应 的 
WIE, 其 结论 很 难 推论 到 其 他 测验 形式 中 ; 其 次 ， 
对 于 题目 顺序 效应 的 研究 被 限定 在 : 不 同 题 册 间 
题目 相同 只 有 题目 顺序 不 同 的 等 组 设计 中 ; 最 后 ， 
这 些 研究 仅仅 关注 题目 顺序 效应 对 测验 总 分 的 影 
响 ， 限 制 了 对 这 种 效应 的 进一步 解释 ， 从 而 导致 
IPE 可 能 会 在 不 同 的 测验 间 相 互 抵消 ， 进 而 无 法 
得 到 检测 。 


3 题目 位 置 效 应 的 检测 和 解释 


IPE 的 一 般 研 究 思路 是 : 首先 ， 所 考查 的 测验 
必须 包括 两 个 或 多 个 题 册 ， 部 分 或 所 有 题目 在 不 
同 题 册 中 的 位 置 不 同 。 然 后 ， 将 不 同 题 册 随机 分 
配给 不 同 的 被 试 作答 ， 获 得 数据 后 进行 参数 估计 ， 
再 考察 题目 参数 与 题目 位 置 的 关系 。 总 结 以 往 研 
究 对 IPE 建 模 的 程序 ,可 以 将 IPE 的 研究 方法 分 
为 两 步 法 和 一 步 法 。 

3.1 ”两 步 法 

两 步 法 是 先 对 同一 题目 在 不 同 题 册 中 的 参数 
值 分 别 进行 估计 ， 再 通过 t 检 验 、 方 差分 析 、 相 关 
分 析 或 回归 分 析 等 统计 方法 检验 相同 题目 在 不 同 
位 置 时 的 参数 是 否 有 差异 ， 据 此 来 判断 IPE 是 否 
存在 以 及 其 对 题目 参数 的 影响 (e.g., Meyers et al., 
2009; Whitely & Dawis, 1976; Yen, 1980)。 以 往 基 
于 两 步 法 的 研究 主要 在 以 下 三 个 情境 下 对 IPE 进 
行 研究 : 
首先 , 在 一 般 的 测验 情境 下 。Kingston 和 Dorans 


(1982, 1984) , Whitely 和 Dawis (1976) , Yen (1980) 
通过 相关 分 析 考 查 了 题目 位 置 的 改变 对 经 典 测验 
理论 (Classical Test Theory,，CTT) 中 的 通过 率 ， 以 
及 IRT 中 Rasch 难度 参数 的 影响 。 这 些 研究 都 比 
较 一 致 地 发 现 疲劳 效应 ， 其 中 Yen (1980) 进 一 步 
分 析 后 认为 : 相对 于 测验 尾部 的 题目 考生 会 更 认 
真 对 待 位 于 测验 前 端的 题目 ， 因 而 将 疲劳 效应 解 
释 为 受 测 者 缺乏 耐心 。 这 种 对 于 疲劳 效应 的 理解 
很 具 前 脆性， 与 近期 将 IPE 理解 为 考生 努力 或 者 
角力 的 思路 相 一 臻 (Debeer，Buchholz，Hartig & 
Janssen, 2014; Hartig & Buchholz，2012)， 这 也 进 
一 步 估 证 了 在 下 一 步 研究 中 可 以 将 IPE 看 作为 独 
立 于 目标 考查 维度 之 外 的 新 维度 。 

其 次 , 在 测验 等 值 情境 下 。Davis 和 Ferdous 
(2005), Eignor 和 Cook (1983) LA Meyers 等 人 
(2009) 分 别 考查 预 试 测验 (field testing) 和 正式 测验 
(living testing) 中 销 题 位 置 变 化 对 其 题目 参数 的 影 
响 。 研 究 一 致 发 现 当铺 题 位 于 预 试 和 正式 测验 的 
不 同位 置 时 ， 锚 题 的 Rasch 难度 参数 值 不 同 ; 而 
且 当 预 试 测验 中 的 题目 ,在 正式 测验 中 的 位 置 越 
往 测 验 尾 部 变化 时 ， 其 难度 估计 值 越 大 。Meyers 
等 人 (2009) 认 为 当 预 试 中 难度 值 较 小 的 题目 位 于 
正式 测验 的 前 端 位 置 、 难 度 值 较 大 的 题目 位 于 正 
式 测验 的 尾部 时 ,存在 显著 的 与 测验 等 值 设计 相 
KÉY IPE。 这 说 明 IPE 的 确 会 对 以 IRT 为 基础 的 
等 值 设 计 的 实现 有 不 利 影响 ， 而 且 这 种 不 利 影响 
对 低能 力 水 平 的 被 试 更 为 明显 。 

最 后 ,在 CAT 情境 下 。Wise 等 (1989) 分 析 军 
队 计 算 机 化 自 适 应 选拔 测试 (4rmy's Computerized 
Adaptive Screening Test, CAST) 中 的 词汇 知识 和 算 
术 推 理 测验 。 研 究 结 果 表 明 同 一 个 题目 位 于 测验 
后 半 部 分 时 比 位 于 前 半 部 分 时 的 通过 率 更 低 、 难 
度 估计 值 更 大 ， 即 题目 位 置 的 改变 会 产生 疲劳 效 
应 ; 并 且 平 均 通 过 率 达 75% 及 以 上 的 题 册 中 疲劳 
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效应 并 不 显著 ， 而 平均 通过 率 只 有 50% 的 题 册 中 
疲劳 效应 显著 ， 即 低能 力 水 平 的 被 试 更 易 受 疲劳 
效应 的 影响 。 

在 两 步 法 的 研究 方法 下 ， 也 有 少 部 分 研究 考 
A IPE 对 题目 区 分 度 的 影响 ,结果 表明 在 教育 测 
验 中 相对 于 对 题目 区 分 度 参数 的 影响 , IPE 对 题目 
难度 参数 的 影响 更 为 明显 (Kingston & Dorans, 1982; 
Yen, 1980)。 总 体 上 ， 两 步 法 下 的 研究 结果 都 一 致 
地 发 现 了 疲劳 效应 , 但 是 针对 这 一 发 现 研 究 者 们 
也 指出 ， 必 须要 首先 明晰 速度 型 测验 或 者 测验 长 
度 对 受 测 者 的 作答 反应 有 怎样 的 影响 (Davis & 
Ferdous, 2005; Yen, 1980)。 
两 步 法 的 最 大 优势 是 数据 分 析 时 的 简便 性 ， 
甚至 可 以 在 CTT 的 框架 下 通过 比较 同一 题目 在 不 
同位 置 时 的 通过 率 、 题 总 相关 系数 等 检测 测验 中 是 
否 存在 IPE。 但 是 ,两 步 法 也 有 一 些 不 足 : (DAT 
将 不 同 题 册 中 的 题目 参数 链接 到 同一 量 尺 上 ， 销 
题 在 不 同 题 册 中 需要 处 于 相同 的 位 置 (2) 没 有 考 
虑 题目 参数 的 测量 误差 。 具 体 来 说 ， 两 步 法 将 参 
数 估 计 和 IPE 检测 分 开 进行 : 第 一 步 得 到 题目 参 
数 估计 值 ， 第 二 步 将 参数 估计 值 和 题目 位 置 分 别 
看 成 因 变 量 和 自 变量 ， 并 通过 方差 分 析 、 回 归 分 
析 等 统计 方法 检测 IPE 的 存在 。 这 样 ,在 第 二 步 
分 析 位 置 对 题目 参数 的 影响 时 假定 题目 参数 估计 
值 不 含 测量 误差 . 这样 很 可 能 使 得 分 析 结 果 出 现 
IA; (3) 易 受 样 本 量 的 影响 。Li，Cohen 和 Shen 
(2012) 指 出 ， 当 不 同 题 册 上 的 样本 量 较 小 时 ， 使 
用 两 步 法 是 不 切实 际 的 (尤其 是 对 于 CAT 而 言 )， 
因为 样本 量 太 小 会 导致 题目 参数 估计 值 存在 较 大 
误差 , 使 得 对 IPE 的 检测 存在 困难 。 
3.2 一 步 法 

一 步 法 是 直接 对 IPE 进行 建 模 ， 即 在 模型 中 
加 入 “位 置 效 应 参数 ” 并 将 被 试 在 所 有 题 册 上 的 
作答 数据 放 在 一 起 进行 参数 估计 。 通 过 比较 包含 
与 不 包含 “位 置 效 应 参数 ”的 模型 的 拟 合 度 ， 以 及 
检验 “位 置 效 应 参数 是否 显著 不 为 零 , 来 判断 是 
否 存在 IPE。 相 对 于 两 步 法 , 一 步 法 具有 以 下 优 
势 : (1) 在 模型 中 加 入 了 量化 位 置 效 应 的 参数 ， 可 
以 实现 题目 本 身 的 难度 参数 和 题目 位 置 参数 的 分 
离 ， 进 而 实现 对 IPE 更 精确 的 分 析 ; (2) 在 实现 对 
题目 参数 和 位 置 参 数 进行 分 离 的 同时 ， 也 可 以 实 
现 对 二 者 的 同时 估计 ; 同时 估计 考虑 了 参数 的 测 
量 误差 , 分 析 结 果 更 为 精确 ,此 外 ,一 步 法 主要 是 


在 解释 性 项 目 反 应 理论 (Explanatory ltem Response 
Theory, EIRT) (De Boeck & Wilson, 2004) 的 框架 
下 构建 各 类 模型 以 实现 对 IPE 的 检测 ， 这 一 框架 
下 的 模型 不 仅 可 以 用 于 实现 对 IPE 的 检测 ， 也 可 
以 用 于 下 一 步 的 研究 中 实现 对 IPE 的 解释 (比如 
Debeer & Janssen, 2013)。 

已 有 研究 主要 是 基于 将 Rasch 模型 进行 扩展 
后 的 模型 对 IPE 进行 建 模 ， 主 要 关注 位 置 效应 对 
题目 难度 参数 的 影响 ,公式 (1) 所 示 的 模型 ( 即 模型 
1。 注 : 以 下 每 个 公式 都 代表 一 种 特定 的 模型 ) 是 
对 Rasch 模型 进行 logit 变换 后 的 形式 ， 其 中 logit 
(Ypix=1) BN In{ P (Yix=1)[1~P (Yix=1)]}, 表 示 发 生 
比 的 自然 对 数 ， Yi 表示 被 试 p 在 位 于 位 置 的 题 
H i 上 的 作答 反应 , 0, 表示 被 试 p 的 能 力 水 平 , px 
表示 题目 i 的 难度 参数 ”在 模型 1 中 加 入 “位 置 效 
应 参数 ”一 一 f (p, i, 月 后 得 到 模型 2， 模 型 2 是 位 置 
效应 模型 的 统一 表达 , f (p, i, 月 代表 位 置 效应 参数 
是 关于 题目 i、 被 试 p 以 及 位 置 上 的 函数 。 

logit p =) = 9, - Pi (1) 
logit(Y,n =1) = 0, -[ 2; + f(p,i,k) (2) 
根据 研究 假设 或 f(b, i, 有 表达 形式 的 不 同 ， 
可 以 将 一 步 法 范式 下 的 位 置 效 应 模型 分 为 三 类 : 
第 一 类 模型 假设 位 置 效应 只 与 题目 位 置 有 关 ， 而 
与 题目 和 被 试 无 关 ， 即 f(p,i, =f); 第 二 类 模 
型 假设 位 置 效 应 取决 于 题目 位 置 与 题目 的 交互 作 
A, 即 fp,i, 有 j= 了 (i, 有 D; 第 三 类 模型 假设 位 置 效 
应 取决 于 题目 位 置 与 被 试 能 力 的 交互 作用 , 即 f 
(p, i, k) =f Ẹp, k)o 
3.2.1 第 一 类 模型 主 效应 模型 

第 一 类 模型 假设 题目 位 置 效 应 独立 于 题目 和 
被 试 ， 只 取决 于 题目 位 置 。 也 即 同一 测验 中 的 所 
有 题目 在 同一 位 置 上 的 位 置 效应 值 相 同 。 

Kubinger (2008, 2009) 和 Hohensinn, Kubinger, 
Reif, Schleich 和 Khorramdel (2011) 等 人 详 述 了 如 


t 关于 IPE 对 于 题目 区 分 度 参 数 影 响 的 研究 主要 集中 于 人 
格 测验 中 (Hamilton & Shuminsky, 1990; Steinberg, 1994). 而 
在 成 就 测验 领域 中 ,这 种 影响 只 在 极 少数 研究 中 得 到 证 
实 。 而 本 文 所 讨论 的 情境 主要 集中 于 成 就 测验 领域 , 因而 
所 考虑 的 模型 主要 基于 Rasch 模型 。 
5 常见 的 Rasch 模型 其 难度 参数 pi 在 IPE 的 研究 情境 下 可 
以 表示 px， 即 题目 i 在 位 置 x 时 的 难度 ， 只 是 在 一 般 情 境 下 ， 
题目 的 位 置 不 变 或 者 忽略 IPE 的 影响 ,于 是 将 px 简写 成 Bp; o 


和 


202303.09072v1 


a 
a 


IV 


china 


ChinaxXiv@ ERAT 


第 2 期 SOL Ss 题目 位 置 效 应 的 概念 及 检测 373 


何 基 于 线性 逻辑 斯 蒂 克 模型 (Linear Logistic Test 
Model，LLTM) 实 现 对 IPE 的 一 步 法 检测 。LLTM 
是 将 Rasch 模型 里 的 题目 难度 参数 分 解 为 多 种 基 
本 认 知 成 分 的 线性 组 合 而 得 到 的 (Fischer，1973)， 


即 B=) naq; 。 其 中 Ba 表示 Rasch 模型 中 第 i 
7 


个 题目 在 第 个 位 置 时 的 难度 参数 , y RRB jA 
基本 认 知 成 分 的 估计 难度 ，97 表示 在 一 定理 论 基 
础 上 每 个 认 知 成 分 影响 题目 i 解答 的 假定 概率 ， 


即 认 知 成 分 必 在 题目 ;上 的 权重 。 若 将 六 7 分 


解 为 (n, +) (rae i= 万 =) 7,45 (r 表示 基 
r=1 


线 成 分 或 目标 特质 ) 表 示 当 题目 i 在 各 测验 或 题 册 
中 位 置 不 变 时 其 基准 难度 值 (或 者 称 在 参考 位 置 


时 的 难度 值 ), 而 令 6 = 9。，(k 表 示 位 置 成 分 ) 
k=1 


用 来 量化 IPE， 表 示 由 于 位 置 改 变 所 构成 的 难度 
值 ， 即 题目 在 位 置 k 时 相 较 于 参考 位 置 其 难度 值 


的 变化 量 。 此 时 ， 及 +6@ = 》 mg， 可 看 作 总 题目 
了 


难度 值 ， 即 可 得 到 模型 3: 
exp| 0, - (8; + 5,) | 
1+exp| 0, - (2; +5.) | 
将 模型 3 进行 logit 转换 可 得 到 模型 4-1， 此 
IN f (p, i k) =f (A) = ôro 
logit (Y „iy =1)= 0, - (P; +8,) (4-1) 
由 于 模型 4-1 中 并 没有 添加 任何 关于 IPE 的 
实质 结构 ， 所 以 对 模型 进行 进一步 限定 , 将 IPE 
的 值 看 作 是 关于 题目 位 置 的 函数 ， 即 将 题目 位 置 
当 作 一 个 解释 性 的 题目 特征 加 入 作答 反应 函数 
(De Boeck & Wilson, 2004)。 所 以 在 Rasch 模型 下 ， 
假定 难度 变化 量 随 题目 位 置 上 线性 变化 ， 即 可 得 
到 模型 4-2， 其 中 ”表示 位 置 效应 的 单位 改变 量 ， 
即 题目 相对 于 参考 位 置 每 变化 1 个 题目 位 置 其 难 
度 的 变化 量 。 Ay 显著 不 为 零 ， 即 表明 测验 中 IPE 


POY, =1 (3) 


P,i)= 


函数 为 例 , f(E = yi (k1) + ya (k1), 即 可 得 模型 
4-3 (Kang, 2014): 


logit Yn =1) =6, -|B +n(k -1)+7 (k -1)'] (4-3) 


值得 注意 的 是 ,在 实际 问题 中 ， 如 果 直 接 在 
模型 中 加 入 二 次 项 系数 来 模拟 难度 变化 量 随 位 置 
的 非 线性 变化 关系 ， 则 很 难 对 该 系数 进行 解释 。 

第 一 类 模型 假设 位 置 效应 的 产生 独立 于 题 
目 和 被 试 , 仅 受 题目 位 置 的 影响 ， 以 此 来 对 IPE 
进行 直接 建 模 。 这 时 得 到 的 位 置 参数 反映 了 IPE 
在 所 有 考生 、 所 有 题目 上 的 平均 效应 , 也 只 能 获 
悉 考 生 能 力 在 测试 过 程 中 的 一 般 变 化 规律 ， 而 
无 法 对 不 同 题目 的 位 置 效应 情况 以 及 IPE 在 个 体 
间 的 差异 进行 探究 。 此 外 , Kubinger (2008, 2009) 提 
出 基于 LLTM 来 检测 IPE, 实际 上 是 从 题目 角度 
出 发 来 对 IPE 进行 研究 ,可 以 看 作 是 在 EIRT 框架 
下 进行 IPE 检测 以 及 解释 性 研究 的 起 点 。 但 是 这 
一 方法 下 的 研究 存在 一 个 明显 的 悖 论 ， 即 从 题目 
角度 模拟 IPE, 但 从 被 试 角度 来 解释 IPE (如 疲劳 
效应 )。 

3.2.2 ”第 二 类 模型 一 一 题目 位 置 与 题目 间 的 交互 
作用 

第 二 类 模型 假设 位 置 效应 受 题目 位 置 与 题目 
交互 作用 的 影响 ， 即 不 同 题目 在 参照 位 置 和 位 
置 之 间 的 难度 变化 不 同 。 

若 模 型 4-1 和 4-2 的 位 置 效 应 参数 与 题目 i 
有 关 , Wp, i D=fG k) = on ,i, k) = y 
(x-1)， 即 可 得 到 模型 5-1 和 5-2 (Debeer & Janssen, 
2013): 


logit(Y,x =1) = 8, —(B; + dx) (5-1) 

logit(Y,. =1) =0, -[ 2; +7:(k-)] (5-2) 

值得 注意 的 是 模型 5-1 中 6 与 模型 4-1 中 ôy 

的 区 别 ,他 们 分 别 表 示 不 同 题目 i 在 参照 位 置 和 
位 置 之 间 的 难度 变化 是 不 同 以 及 相同 的 ， 即 难度 
的 变化 受到 以 及 不 受到 题目 内 容 的 影响 。 此 时 可 
以 令 Oi = 51+ Of, 其 中 64 即 模型 4-1 中 位 置 的 主 
效应 ,也 可 以 理解 为 平均 的 位 置 效应 ，6; 轴 是 位 


的 存在 。 进 一 步 来 讲 ， 当 y>0 时 ， 表 示 存 在 疲劳 

效应 ; y <0 时 ， 则 表示 存在 练习 效应 。 此 时 了 (k) = 
y (k-1). 

logit(Y,, =D)=0,-[B+7(k-D)| (4-2) 

如 果 难 度 变 化 量 随 位 置 非 线性 变化 ， 则 了 (1) 

可 以 表示 为 上 的 二 次 函数 、 指 数 函 数 等 。 以 二 次 


置 上 与 题目 i 交互 作用 的 效应 值 。 相应 地 ， 在 模型 
5-24 y,=yt+y/, 代入 公式 后 y (Kk 一 1) 即 模型 4-2 
中 位 置 的 主 效应 , pf (二 1 是 题目 i 与 位 置 交互 作 
用 的 位 置 效应 值 。 若 此 时 y; 显著 不 为 零 ， 则 表明 
IPE 的 确 存在 ; 且 可 以 通过 比较 模型 5-2 和 4-2 对 
同一 测验 结果 的 拟 合 度 ( 如 AIC、BIC 值 ) 是 否 存在 


| = 
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差异 , 来 判断 是 否 存在 题目 位 置 与 题目 的 交互 效 
应 。 此 外 , Kang (2014) 还 给 出 交互 效应 的 二 次 函 
数 表 达 式 ， 即 模型 5-3: 

logit(Y,, =1) =9, -|4 +7;(k-1)+7(k -17| (5-3) 


Albano (2013) 使 用 模型 5-1 和 5-2 研究 GRE 
词汇 和 数学 测试 ， 发 现 位 置 与 题目 间 存 在 显著 的 
交互 作用 ， 从 而 证 实 IPE 在 不 同 题目 间 存 在 显著 
的 差异 。 另外 , Kingston 和 Dorans (1984) 对 不 同 题 
目 类 型 中 IPE 的 差异 性 进行 研究 ,结果 表明 : 在 
语文 题 (verbal items), F (quantitative items) 
以 及 分 析 题 (qanalytical items) 三 种 题 型 中 , 分 析 题 
受到 题目 位 置 的 影响 最 大 ， 其 次 是 数学 题 ,， 而且 
都 是 练习 效应 。 这 也 说 明 第 二 类 模型 假设 位 置 效 
应 受 题目 位 置 与 题目 的 交互 作用 影响 的 合理 性 。 
虽然 第 二 类 模型 在 第 一 类 模型 的 基础 上 考虑 
了 题目 位 置 与 题目 交互 作用 的 影响 ,使 得 每 个 题 
目 都 有 一 个 位 置 参 数 。 但 是 , 第 二 类 模型 也 是 从 
题目 角度 来 对 IPE 进行 解释 性 研究 ， 仍 存在 模拟 
和 解释 IPE 不 一 致 的 问题 。 

3.2.3 ”第 三 类 模型 一 一 题目 位 置 与 被 试 间 的 交互 
作用 

第 三 类 模型 假设 位 置 效 应 受 题目 位 置 与 被 
试 交 互 作用 的 影响 ， 即 不 同位 置 的 题目 其 难度 的 
变化 受 个 体 差异 的 影响 。 

由 于 不 能 直接 对 模型 4-1 的 位 置 效 应 参数 加 
Eip Fin, 所 以 此 处 我 们 只 讨论 基于 模型 4-2 
FRAZER, BS (p, i k) =f p, k) =y 
(ED 时 的 模型 (Hartig & Buchholz, 2012): 

logit(Y, =) =9, -[B +7,(k -1)| (6) 

其 中 服从 正 态 分 布 ,表示 对 于 被 试 p, 题目 
相对 于 参考 位 置 每 变化 1 个 题目 位 置 其 难度 的 变 
化 量 。 相 应 地 ， 可 以 令 y,=y+y 代入 公式 6 后 y 
(1) 表 示 所 有 被 试 每 答 完 一 道 题 的 平均 能 力 变 
(hit. IEE, Ay, MARA, MRH IPE 的 确 
存在 ; 也 可 以 计算 y, 与 0, 的 相关 系数 ， 以 此 来 判 
Wr IPE 在 个 体 间 的 差异 。y; k- DORRI p 与 位 
置 交 互 作用 的 位 置 效 应 值 ， 反映 被 试 p 每 答 完 一 
道 题 其 能 力 在 多 大 程度 上 ( 即 y; 绝 对 值 的 大 小 )、 往 
何 种 方向 ( 即 »; 的 正 、 负 号 ) 偏 离 所 有 被 试 的 平均 能 
力 变化 量 ; WA % 可 以 看 作 独 立 于 目标 考查 维度 
ZAP A BEE, WAER (persistence) MAES 
力 (examinee effort) (Hartig & Buchholz, 2012; 


Debeer et al., 2014 )。 

IPE 的 本 质 是 被 试 在 测验 过 程 中 能 力 的 变化 ， 
不 同 被 试 在 测验 过 程 中 的 能 力 变化 必然 存在 个 体 
差异 。 因 而 第 三 类 模型 是 最 符合 实际 情况 的 ， 即 
模型 中 每 个 被 试 都 有 位 置 参数 ， 可 以 得 到 位 置 效 
应 对 不 同 被 试 的 影响 。 此 外 ，Debeer 和 Janssen 
(2013) 还 对 一 步 法 下 的 三 种 建 模 方法 进行 比较 研 
究 ， 着 重 强调 了 “IPE 应 被 解释 为 与 被 试 相关 的 某 
种 特质 *， 并 指出 下 一 步 的 研究 重点 是 “对 检测 出 
的 效应 进行 进一步 的 解释 *”， 即 对 IPE 所 代表 的 新 
维度 进行 解释 。 

总 的 来 说 ， 基 于 IRT 框架 的 一 步 法 在 检测 
IPE 时 有 以 下 优势 : (1) 可 以 将 题目 位 置 与 设计 中 
的 其 他 题目 特征 区 分 开 来 ,这样 就 可 以 得 到 不 同 
的 模型 ， 比 如 前 面 讨 论 的 三 类 模型 ; (2) 只 要 两 个 
测验 之 间 存 在 锚 题 ， 就 可 将 IPE 当 作 题 目 本 身 的 
属性 进行 考查 ， 即 模型 并 不 局 限于 等 组 设计 , 在 
复杂 的 非 等 组 设计 中 同样 适用 ; (3) 将 IPE 对 测验 
总 分 的 影响 ， 看 作 其 对 单个 题目 分 数 影响 的 总 和 ， 
从 而 实现 在 测验 分 数 水 平 对 IPE 的 考查 。 比 如, 通 
过 测验 特征 曲线 可 以 概述 IPE 对 测验 总 分 期 望 值 
的 影响 (Debeer & Janssen, 2013); (4) 在 题目 水 平 模 
拟 IPE 有 助 于 对 所 发 现 效应 的 解释 ， 比 如 个 体 协 
变量 (如 性 别 和 测验 动机 等 ) 可 用 于 解释 IPE 所 代 
表 的 新 维度 。 

除了 上 述 基于 Rasch 模型 的 扩展 模型 进行 建 
模 的 方法 外 , 一步 法 下 的 建 模 思路 还 可 以 基于 多 
水 平 IRT 的 视角 ,对 题目 位 置 的 主 效应 和 交互 效 
应 进行 探究 ， 即 将 题目 位 置 作为 题目 水 平 的 预测 
变量 加 入 第 一 水 平 , 通过 定义 其 第 二 水 平 的 随机 
性 来 确定 IPE 的 类 型 。 
3.2.4 ”多 水 平 IRT 的 视角 

实质 上 , 这 一 研究 视角 是 EIRT 框架 下 研究 方 
法 的 一 种 变 式 。 两 水 平 的 IRT 模型 即 多 水 平 线 性 模 
型 中 的 零 模型 ( 刘 红 云 ， 骆 方 , 2008) 如 下 所 示 : 


N-1 
IKE 1: logit(¥,n =1)= Ap + >, BayX cin 
q=1 


水 平 2: Pop = Yoo + Hop 
Bay = Yan 
混合 模型 : logit(Y px =1) =% +740 +*uop (7) 
其 中 忆 表 示 被 试 ,1 表示 题目 , k RIME, N 
是 题目 数 ; 忒 ,是 第 六 个 被 试 对 应 的 第 q 个 虚拟 变 


和 
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量 (g = 1, 2,…, N-1)， 当 g = i 时 , X,,=1 否则 
w= 二 0。uop 服 从 均值 为 0 的 正 态 分 布 ,可 视 为 被 
试 p 的 能 力 值 ; yoo 可 视 为 第 N 个 题目 的 容易 度 
(easiness), yao 可 视 为 第 q 个 题目 与 第 NN 个 题目 容 
易 度 的 差 值 。 根 据 混 合 模 型 (mixed models)， 可 以 
得 到 第 i 个 题 目的 Rasch 难度 值 : — Yqo- Yoo o 
Albano (2013) 详 述 了 如 何 根据 多 水 平 IRT 从 
主 效应 和 交互 效应 角度 检测 IPE。 如 果 位 置 效 应 
独立 于 题目 和 被 试 ,在 模型 7 的 水 平 1 中 加 入 位 
置 效 应 参数 作为 预测 变量 ， 即 可 得 主 效应 模型 8: 
水 平 1: 


NA 
logit px =D = Bop + 2 BX qip + Brpkip 
q=1 


水 平 2: 


Pop = Yoo + Hop 
Bap = Yao 
Bp =Yno 
混合 模型 ; 
logit Yn =D) =Yo0t+V%qo top + ¥nokip (8) 
其 中 Bw 是 位 置 的 主 效应 ， kip (Kip = 1, 2,77, N) 
是 被 试 p VEA HOSEA i (th EN 9 = 站 所 处 的 位 置 , ywo 
为 位 置 的 固定 效应 ,表示 所 有 位 置 间 成 绩 得 分 的 
总 平均 变化 。 模型 8 与 模型 4-2 相对 应 。 另 外 ， 如 
果 位 置 与 题目 有 交互 作用 ， 则 在 模型 8 的 水 平 1 
中 再 加 入 (N-D) 个 题目 与 位 置 的 交互 作用 参数 ， 即 


水 平 2: Pop = Yoo + Lop 
Bap = 40 
Brp =Yno 
Pwia)p = 1(n-+q)0 
混合 模型 : 


logit(Y ix =1) = Yoo + 740 + Yop + Ynokin + Yveq)oKip (9) 

其 中 Pvrayp 表示 题目 与 位 置 交 互 作 用 下 的 位 
置 效 应 。 模型 9 与 模型 5-2 相对 应 。 类 似 的 ， 如 果 
位 置 与 被 试 有 交互 作用 ， 则 在 模型 8 中 加 入 位 置 


与 被 试 交互 作用 参数 ， 得 到 交互 效应 模型 10。 
水 平 1: 


N1 
logit(Y, =1) = Bop + ` Bap qip + Prpkip 
q=1 


水 平 2: Pop = Yoo + Hop 
Bay = Yao 
Brp =¥not Hap 
混合 模型 ; 


logit Yn =D) = Yoo + %q0 +t Uop + Yvokip + Mr pkip (10) 


此 时 位 置 效 应 By 包括 两 部 分 :固定 效应 
位 置 的 主 效 应 yw 和 随机 效应 一 一 位 置 与 被 试 的 
交互 作用 mw， 而且 mp 服从 均值 为 零 的 正 态 分 布 。 
模型 10 与 模型 6 相对 应 。Debeer 等 人 (2014) 从 多 
水 平 IRT 的 视角 出 发 ， 在 模型 中 加 入 组 水 平 变 量 


作 期 刊 


可 得 到 交互 效应 模型 9: 来 探究 IPE 在 不 同学 校 、 国 家 间 的 差异 。 
Nal Al 条 检测 模型 2 C 
水 平 1: logit(Y p =D = Pop + 2 BpX ap + a Do a e a : Ca 
= 于 EIRT 的 框架 下 探讨 题目 位 置 的 主 效应 、 交 互 效 
nt 应 模型 。 表 2 对 检测 IPE 的 一 步 法 模型 进行 了 详 
Brpkip 本 > Plvia)p Xapkip b 
d=1 细 对 比 。 
表 2 检测 IPE 一 步 法 的 汇总 
logit (Ypik = 1) = 
模型 主 效应 题目 和 位 置 的 交互 效应 被 试 和 位 置 的 交互 效应 
被 试 部 分 题目 部 分 被 试 部 分 题目 部 分 被 试 部 分 题目 部 分 
Rasch 模型 Op — [Bit y* (k—1)] Op — [Bi + yi* (k-1)] Op — yp* (k-1) Bi 
多 水 平 IRT Uop yoo + ygo +yNokip Uop Yoo + ygo + ynokip Uop + Uopkip yoo + ygot ynokip 
K K 
解释 性 IRT O, -$ BX Op -$ BX Op + Opr Bi 
k=0 k=0 
= Hyi 立 署 与 题目 交 
IPE 受 题目 位 轩 与 题目 交互 作用 TpE 受 题目 位 置 与 被 坛 间 的 交互 作 


IPE 独立 于 题目 和 被 坛 ， 只 取 
决 于 题目 位 置 。 


的 影响 ， 即 不 同 题目 (题目 内 容 不 
同 ) 在 参照 位 置 和 上 位 置 之 间 难度 
变化 不 同 。 


用 的 影响 ， 即 不 同位 置 的 题目 难度 


的 变化 ,受到 个 体 差异 影响 。 
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3.2.5 ”参数 估计 

以 上 模型 都 可 归 为 广义 线性 混合 模型 
(generalized linear mixed model), 可 用 般 的 统计 
软件 实现 模型 的 参数 估计 ， 比 如 及 软件 lme4 包 中 
的 Imer 函数 (Debeer & Janssen, 2013) 以 及 HLM7 
(Hartig & Buchholz, 2012; Albano, 2013)。 如 果 在 
以 上 模型 中 加 入 区 分 度 ， 这 些 模型 则 属于 非 线性 


CAT 、 题 库 建设 以 及 大 规模 测评 中 的 抽样 设计 等 
方面 做 出 突出 的 贡献 ， 大 大 丰富 了 测验 理论 及 其 
在 实践 中 的 应 用 。 在 这 些 应 用 过 程 中 ， 也 需要 不 
断 检验 参数 不 变性 特征 是 否 能 够 得 到 满足 -而 IPE 
是 对 IRT 参数 不 变性 的 直接 违反 ， 因 而 会 对 基于 
该 特征 的 相关 应 用 产生 直接 的 影响 。 本 文 首先 对 
IRT 参数 不 变性 特征 的 具体 含义 进行 了 介绍 ， 然 


混合 模型 (De Boeck & Wilson, 2004)， 此 时 可 使 用 
SAS 软件 中 的 NLMIXED 程序 包 估计 模型 参数 
(Debeer & Janssen, 2013)。 
3.3 ”对 IPE 的 解释 

以 往 的 研究 主要 是 从 题目 和 被 试 两 个 角度 对 
IPE 进行 解释 。 第 一 ， 从 题目 角度 对 IPE 进行 解 
释 时 会 将 题目 难度 参数 看 成 多 种 认 知 成 分 的 线性 
组 合 (Kubinger, 2008, 2009)。 基于 这 一 角度 的 研究 
主要 从 测验 的 整体 层面 或 者 单个 题目 层面 探究 题 
目 位 置 改 变 对 被 试 作答 结果 的 影响 并且 根 据 被 
试 作答 结果 的 变化 趋势 , 将 IPE 概括 为 练习 效应 
或 疲劳 效应 。 但 是 这 一 角度 的 研究 思路 会 产生 一 
个 悖 论 ， 即 模拟 时 从 题目 角度 出 发 , 但 解释 时 是 
从 被 试 角度 来 解释 ， 比 如 疲劳 效应 。 这 一 悖 论 会 
使 得 研究 者 不 能 清楚 理解 IPE 或 其 所 指 代 的 真正 
含义 。 

第 二 ， 从 被 试 角度 对 IPE 进行 解释 ， 即 将 IPE 
看 作 独 立 于 目标 考查 维度 之 外 的 新 维度 。Hartig 
和 Buchholz (2012) 提 出 的 被 试 和 题目 的 交互 效应 
模型 ， 首 次 将 IPE 看 作 独 立 于 能 力 维度 之 外 的 新 
维度 ， 并 且 标 记 为 角力 。 另 外 , Debeer 等 人 (2014) 
在 Hartig 和 Buchholz (2012) 的 研究 基础 上 ,将 位 
置 效应 维度 理解 为 考生 努力 ， 并且 使 用 多 水 平 
IRT 对 IPE 进行 校 际 、 国 家 之 间 的 比较 。 虽 然 这 
些 研 究 将 IPE 看 成 新 维度 ,但 是 对 新 维度 的 定义 
缺乏 相应 的 理论 支持 ; 而 且 研 究 者 往往 基于 个 人 
经 验 和 实际 研究 中 的 方便 , 将 IPE 所 代表 的 新 维 
度 定义 为 考生 厅 力 或 考生 努力 , 仍 没 有 研究 加 入 
与 个 体 有 关 的 预测 变量 来 对 IPE 进行 解释 。 同 时 ， 
他 们 也 指出 这 一 新 维度 还 可 以 从 动机 、 测 验 过 程 中 
的 学 习 能 力 等 特质 因素 来 理解 (Hartig & Buchholz, 
2012)。 所 以 ， 目 前 这 一 新 维度 表示 什么 特质 尚未 
有 定论 。 


4 讨论 与 展望 
IRT 依赖 其 参数 不 变性 特征 ,在 测验 等 值 、 


后 对 与 IPE 相关 或 相似 的 概念 进行 区 分 , 希望 能 
够 帮助 研究 者 今后 更 全 面 地 理解 IPE 的 含义 、 了 
解 这 一 主题 的 发 展 过 程 。 本 文 在 第 三 部 分 重点 总 
结 了 检测 IPE 的 两 种 主要 方法 一 一 两 步 法 和 一 步 
法 ,特别 对 当前 主要 使 用 的 一 步 法 的 三 类 建 模 思 
路 进行 详细 总 结 。 从 解释 性 IRT 的 角度 来 看 ， 这 
三 类 建 模 思路 实质 上 也 对 应 着 不 同 的 IPE 解释 角 
度 ， 即 从 题目 角度 或 从 被 试 角度 对 IPE 进行 解释 。 
综合 以 往 研 究 的 结论 和 局 限 性 , IPE 今后 的 研究 方 
向 包括 以 下 四 个 方面 : 
41 探究 和 开发 检测 IPE 的 新 模型 、 新 方法 

如 上 文 所 总 结 的 ,基于 IRT 框架 的 一 步 法 主 
要 包括 三 类 模型 ,其 中 第 一 类 模型 所 能 提供 的 信 
息 后 两 类 模型 都 能 提供 。 使 用 第 二 类 模型 得 到 的 
结果 有 助 于 剔除 那些 受 位 置 效 应 影响 大 的 题目 ， 
从 而 提高 测试 的 信 效 度 。 使 用 第 三 类 模型 得 到 的 
结果 则 有 助 于 明晰 位 置 效 应 对 不 同 被 试 的 作用 ; 
这 也 是 最 符合 实际 的 一 类 模型 ， 因为 PE 的 本 质 
是 被 试 在 测验 过 程 中 的 能 力 波动 , 不 同 被 试 在 测 
验 过 程 中 的 能 力 波动 理应 不 同 。 

一 步 法 下 的 这 三 类 模型 虽然 考虑 了 题目 参数 
的 测量 误差 ， 相 比 两 步 法 更 精确 ,但 是 仍 存在 以 
下 不 足 :(1) 将 IPE 限定 在 “个 体 对 于 题目 的 作答 反 
应 是 独立 的 ” ， 即 题目 间 的 作答 结果 是 相互 独立 、 
互 不 影响 的 。 但 是 在 实际 情形 中 该 限定 条 件 容 易 
被 违反 ， 比 如 在 练习 效应 中 ,成 功 的 作答 相对 于 
错误 的 作答 会 产生 更 大 的 练习 效应 。 所 以 , 需要 
使 用 诸如 动态 (dynamic) IRT 模型 等 特殊 的 模型 处 
理 这 类 情境 ; (2) 不 能 考查 由 一 个 题目 先 于 男 一 个 
题目 (比如 一 个 难题 位 于 一 个 简单 题目 的 前 面 ) 所 
产生 的 效应 ,这 种 序列 效应 (sequencing effects) 也 
是 关于 题目 位 置 的 函数 , 但 是 这 种 效应 涉及 的 是 
某 题目 的 子 集 ( 比 如 一 对 题目 ), 然而 目前 基于 IRT 
框架 的 一 步 法 仅仅 关注 一 个 题 册 内 的 某 个 题目 ; 
(3) 现 有 研究 主要 集中 于 侦查 和 模拟 IPE， 没 有 引 
入 与 个 体 有 关 的 变量 对 IPE 进行 解释 性 研究 。 
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鉴于 以 往 研究 已 经 证 明 IPE 可 以 看 作 是 独立 
于 被 试 能 力 维度 之 外 的 新 维度 (Debeer & Janssen, 
2013; Hartig & Buchholz, 2012)， 所 以 在 今后 的 研 
究 中 可 以 使 用 多 维 模型 来 进一步 模拟 和 检测 TPE; 
还 可 以 借鉴 追踪 数据 的 分 析 方 法 ,将 每 个 被 试 在 
每 个 题目 位 置 的 测量 ， 看 作 是 追踪 研究 中 每 个 被 
试 在 每 个 时 间 点 的 测量 ， 并 借助 相关 的 纵向 IRT 
模型 (Embretson, 1991; Paek, Baek, & Wilson, 2012; 
Roberts & Ma, 2006; Von Davier, Xu, & Carstensen, 
2011) 进 行 分 析 。 值 得 注意 的 是 , 针对 一 步 法 的 建 模 
范式 , 除了 IRT 的 视角 也 可 以 从 验证 性 因子 分 析 的 
视角 探究 IPE, 感 兴趣 的 读者 可 以 参考 Schweizer, 
Schreiner 和 Gold (2009) 以 及 Schweizer, Troche 和 
Rammsayer (2011) 等 。 
4.2 ”对 检测 到 的 IPE 进行 进一步 的 解释 

就 像 DIF 的 研究 进程 一 样 (Zumbo，2007), 在 
检测 IPE 并 探究 其 影响 之 后 ， 下 一 步 需要 对 所 发 
现 效 应 进行 解释 (Debeer & Janssen, 2013)。 研 究 者 可 
以 根据 EIRT 中 的 个 体 解 释 性 模型 (person explanatory 
models) (De Boeck & Wilson, 2004), 对 所 发 现 的 
结果 进行 进一步 的 解释 。 例 如 , 已 有 研究 已 经 证 
实 ,在 低 利 害 的 测评 中 受 测 者 会 在 测验 动机 上 存 
在 显著 差异 ， 因 此 可 以 考虑 将 对 被 试 动机 水 平 的 
自我 报告 测量 (比如 Wise & DeMars, 2005), 或 者 
反应 时 (比如 Wise & Kong, 2005) 加 入 到 IRT 模型 
中 ， 作 为 额外 的 被 试 预 测 变量 对 IPE 进行 进一步 
解释 。 另 外 , Borgonovi 和 Biecek (2016) 认 为 目前 
在 低 利害 的 国际 测评 中 ,所 测量 的 实际 是 个 体 技 
能 (sizD) 与 意志 (wz 的 组 合 ， 其 研究 结果 表明 : 考 
试 毅 力 可 以 看 作 是 学 生 在 测验 过 程 中 运用 自我 控 
制 能 力 的 函数 ， 而 且 这 种 能 力 依赖 于 考试 动机 。 
因而 他 们 认为 ， 考 试 闹 力也 应 该 是 低 利害 测评 中 
所 测量 的 维度 之 一 。 因 此 , 下 一 步 的 解释 性 研究 
可 以 从 考试 毅力 的 角度 出 发 ， 在 模型 中 引入 与 个 
体 有 关 的 变量 , 探究 IPE 在 个 体 间 的 差异 或 者 个 
体 变量 对 IPE 的 预测 作用 ， 进 而 实现 对 IPE 的 进 
一 步 解 释 。 
4.3 ”在 特定 情境 下 考察 IPE 

鉴于 IPE 影响 的 广泛 性 ， 以 往 研究 结 
的 研究 情境 对 IPE 进行 多 视角 的 探究 。 这 
包括 : 
首先 ，Talento-Miller，Rudner，Han 和 Guo 
(2012， 引 上 自 Store，2013) 在 CAT 中 研究 IPE， 结 


合 特定 
些 研究 


果 表 明 位 置 的 变化 会 对 被 试 的 作答 表现 产生 影响 
(比如 疲劳 效应 )。 另 外 ， 因 题目 位 置 变化 而 导致 的 
参数 差异 值 的 大 小 , 会 因 具 有 不 同 反 应 时 的 题 型 
而 变化 。 
再 者 ,在 等 值 设计 中 ，Store (2013) 在 其 博士 
论文 中 对 该 领域 内 有 关 IPE 的 研究 进行 了 详细 论 
述 ， 并 进一步 探究 不 同 的 等 值 设计 是 否 会 加 剧 或 
减弱 IPE。 大 量 的 研究 表明 : 锚 题 位 置 的 变化 会 
对 等 值 结果 产生 显著 的 影响 (Whitely & Dawis, 
1976; Yen, 1980; Davis & Ferdous, 2005; He, Gao, 
& Ruan，2009)。 在 等 值 设 计 中 ， 销 题 在 各 个 题 册 
中 都 不 应 该 存在 DIF， 而 且 在 各 个 题 册 中 也 应 该 
被 安排 在 相同 的 位 置 上 (Cook & Petersen, 1987)。 
其 至 有 研究 者 认为 ， 销 题 题目 选项 的 位 置 都 不 应 该 
被 改变 (Cizek, 1994)。IPE 的 存在 会 对 等 值 技术 的 有 
效 性 构成 许多 挑战 。Weirich, Hecht 和 Böhme (2014) 
还 认为 在 进行 任何 基于 锚 题 的 链接 设计 之 前 ， 都 
必须 首先 确定 IPE 在 所 有 的 样本 上 是 一 致 的 。 

正如 Kolen 和 Brennan (2004) 所 指出 的 :测验 
的 开发 和 等 值 是 密 不 可 分 的 。 我 们 不 应 该 再 继续 
忽略 等 值 过 程 中 因 题 目 设 计 或 测验 开发 所 带 来 的 
问题 ， 而 应 该 尽量 去 克服 这 些 设计 所 带 来 的 问 
题 。 以 往 的 研究 也 表明 : 不 论题 目的 位 置 产生 怎 
样 的 变化 (向 前 向 后 或 者 向 中 间 位 置 移 动 ) 都 会 带 
来 一 定 的 影响 ; 从 这 一 角度 看 ， 建 议 研究 者 今后 
可 以 考虑 更 深层 次 的 等 值 方法 ， 比 如 可 以 考虑 用 
相同 的 因子 载荷 来 代替 销 题 等 。 

另外 ， 在 表现 性 评价 (performance assessments) 
中 ， 比 如 建构 反应 性 试题 、 短 文 以 及 口头 表述 等 ， 
相 较 于 传统 的 选择 题 能 更 好 地 测量 出 学 生 在 真实 
世界 中 的 复杂 成 就 和 情意 表现 ， 因 而 逐渐 受到 各 
领域 的 青睐 ( 赵 德 成 , 2013)。 但 是 ， 对 其 进行 等 值 
设计 或 者 对 不 同时 间 段 的 测评 结果 进行 比较 时 ， 
则 存在 很 大 的 挑战 , 这 其 中 就 包含 因 题目 顺序 变 
化 所 和 带 来 的 偏差 问题 (Muraki, Hombo & Lee, 2000). 
因此 ,下 一 步 研究 者 除了 可 以 继续 在 这 些 研 
究 主 题 下 进一步 深化 之 前 的 研究 ， 也 可 以 在 其 他 
研究 情境 下 探讨 IPE 的 有 影响。 比如， 由 于 题 组 
(testlet) 的 使 用 越 来 越 普 遍 ， 针 对 题 组 的 等 值 和 
DIF 都 得 到 相应 的 研究 。 所 以 相应 地 ， 也 可 以 对 题 
组 位 置 变化 的 影响 进行 探究 。 
4.4 ”探究 平衡 或 消除 IPE 的 方法 

无 论 在 基础 研究 领域 还 是 实践 应 用 领域 , IPE 
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的 研究 都 具有 很 大 的 必要 性 。 如 果 和 忽略 这 一 效应 ， 
将 会 对 研究 本 身 和 实际 工作 产生 一 系列 的 不 利 影响 
(Wu, 2010; Meyers, Murphy, Goodman, & Turhan, 
2012; Debeer & Janssen, 2013)。 所 以 ， 探 究 平 衡 或 
消除 IPE 的 方法 也 应 该 引起 研究 者 的 关注 。 

首先 ,测验 设计 方面 的 研究 表明 : 可 以 通过 
题目 位 置 平衡 设计 的 方法 降低 由 IPE 导致 的 参数 
变化 。 其 基本 设计 是 : 令 题 目 在 每 个 位 置 上 的 呈 
现 次 数 完全 相同 ， 此 时 由 于 题目 位 置 变化 所 产 和 4 
的 效应 量 对 于 所 有 题目 是 相同 的 ， 从 而 消除 IPE 
带 来 的 不 利 影响 (Hecht et al., 2015; Weirich et al., 
2014)。 再 者 ， 也 有 研究 结果 表明 : 整体 移动 包含 
多 个 题目 的 阅读 理解 题目 ( 即 题 组 )，IPE 对 题目 参 
数 的 影响 不 明显 (Haladyna, 1992)。 对 此 有 研究 者 
分 析 认 为 ,这 主要 是 由 于 题 组 的 移动 是 按照 一 组 
题目 整体 移动 的 , 所 以 这 其 中 的 单个 题目 就 其 周 
围 的 题目 而 言 其 位 置 是 相对 不 变 的 ， 所 以 位 置 变 
化 的 影响 不 明显 (Store, 2013), 但 这 一 观点 有 待 进 
一 步 确 定 。 
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Abstract: Item position effect (IPE) refers to the item parameter non-invariance when the same item is 


placed at different positions of the tests, after controlling for the influence of random errors. The presence of 


IPE causes the violation of the critical parameter invariance assumption made in item response theory, 


making the applications such as test equating and computerized adaptive testing at risk. At present, the 


existing researches in this field mainly focus on the detection and modeling of IPE. However, more research 


efforts are needed to further explain the consequences of the detected IPE and to provide an in-depth 


discussion of IPE under different scenarios, which is of great importance to both basic research and practical 


applications. 
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